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Abstract-The use of the internet in Indonesia to access social media has increased from the previous four years, where 36.360 of 
users still use social media Facebook. 'The average social media users are teenagers with smartphones. Facebook has features that 
are favored by its users for buying and selling activities, so that it can increase user engagement and sales data. To analyze the 
increase in sales data, this study uses data mining with clustering methods. By using secondary data from the UCI Repository, a 
comparative analysis of three different algorithms was carried out to find out which is the best among the Hierarchical, K-Means, 
and DBSCAN algorithms. The results showed that the Hierarchical algorithm obtained the highest silhouette score, namely 0.884, 
a fairly thin difference with the silhouette score obtained by K-Means, which was 0.872. Furthermore, the results of comparisons 
made using performance indicators show that K-Means is the best algorithm with an average execution time of 0.402 seconds, a 
considerable difference from the other two algorithms. Based on the two indicators that have been used, it can be seen that the 
best algorithm for analyzing sales data via Facebook is the K-Means algorithm. Finally, the appearance of the number of clusters 2 
from the K-Means algorithm can group sales data via Facebook into two categories, namely "Busy Posts" and "Lone Posts". 
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Abstrak-Penggunaan internet di Indonesia untuk akses media sosial meningkat dari empat tahun sebelumnya, di mana 36,360 
pengguna masih menggunakan media sosial Facebook. Rata-rata pengguna media sosial ini berasal dari kalangan remaja dengan 
smartphone. Facebook memiliki fitur-fitur yang digemari oleh penggunanya untuk melakukan aktivitas jual beli, sehingga dapat 
meningkatkan user engagement dan data penjualan. Untuk menganalisis peningkatan data penjualan, penelitian ini menggunakan 
data mining dengan metode klasterisasi. Dengan menggunakan data sekunder dari UCI Repository, dilakukan analisis terhadap 
komparasi tiga algoritma berbeda untuk mengetahui mana yang terbaik di antara algoritma Hierarchical, K-Means, dan DBSCAN. 
Hasil penelitian menunjukkan bahwa algoritma Hierarchical dengan memperoleh skor silhouctte tertinggi yaitu 0.884, selisih yang 
cukup tipis dengan perolehan silhouette score yang diperoleh K-Means sebesar 0.872. Selanjutnya, hasil komparasi yang dilakukan 
dengan menggunakan indikator performa menunjukkan bahwa K-Means merupakan algoritma terbaik dengan rata-rata waktu 
eksekusi selama 0.402 detik, selisih yang cukup jauh dari dua algoritma yang lain. Berdasarkan dua indikator yang telah digunakan 
tersebut, dapat diketahui bahwa algoritma terbaik untuk menganalisis data penjualan melalui Facebook adalah algoritma K-Means. 
Terakhir, munculnya jumlah cluster 2 dari algoritma K-Means dapat mengelompokkan data penjualan melalui Facebook menjadi 
dua kategori, yaitu “Postingan Ramai” dan “Postingan Kurang Ramai”. 


Kata Kunci: Facebook, Klasterisasi, Hierarchical, K-Means, DBSCAN 


1. Pendahuluan 


Survei yang dilakukan oleh Asosiasi Penyelenggara 
Jasa Internet Indonesia (APJII) menghasilkan fakta 
bahwa pengguna internet baru di Indonesia telah 
mengalami kenaikan sebesar 25,5 Juta, setara dengan 
8,9Yo jika dibandingkan dengan 2018 silam yang total 
jumlah penggunanya mencapai 63 juta orang (1). Dari 
angka tersebut, diketahui 95Y0 pengguna internet 
mengakses media sosial. Semakin banyaknya media sosial 
yang tersedia di zaman modern ini, 36,36Y0 pengguna 
internet masih menggunakan Facebook untuk saling 


berinteraksi dengan pengguna lain (2). Jumlah tersebut 
telah mengantarkan Indonesia ke posisi nomor 4 dunia 
dengan pengguna Facebook terbanyak setelah USA, 
Brazil, dan India (3). Penggunaan Facebook di zaman 
sekarang tidak lagi hanya terbatas pada konsep just fun, 
tetapi sangat bisa juga digunakan sebagai salah satu media 
penjualan secara online yang lebih lumrah dikenal dengan 
sebutan e-commerce, yaitu sarana pemasaran secara 
elektronik (4). Tidak hanya menjadi sosial media sekaligus 
marketplace yang hanya dapat menampilkan produk saja, 
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tetapi para penjual di Facebook juga bisa memanfaatkan 
fitur live streaming untuk mempertunjukkan produk yang 
mereka miliki secara interaktif, mempromosikan 
produk/perusahaan mereka, dan melakukan tutorial 
pemakaian dari produk-produk tertentu (5). Setyawan, 
dkk membuktikan bahwa rata-rata pelajar yang 
mempunyai smartphone mengakses lebih dari 6 jam per 
hari untuk aplikasi yang dilengkapi dengan fitur live 
streaming. Tidak heran jika para pengguna media sosial 
dengan fitur live streaming telah mendapatkan 
peningkatan dalam user engagement yang disebabkan 
oleh adanya interaksi secara langsung dan komunikasi dua 
arah dalam kegiatan live streaming tersebut JO. 
Berdasarkan peningkatan data penjualan melalui 
Facebook tersebut, akan dilakukan analisis menggunakan 
salah satu peran dari data mining, yaitu clustering. Dalam 
metode clustering itu sendiri, ada beberapa algoritma yang 
bisa diterapkan, di antaranya adalah Hierarchical, K- 
Means, dan DBSCAN. Dari beberapa algoritma yang 


2. Metodologi 


Metodologi yang digunakan untuk melakukan 
penelitian ini adalah dimulai dengan melakukan studi 
pustaka dan pencarian data sekunder melalui UCI 
Repository. Kemudian, data tersebut perlu dilakukan 
preprocessing terlebih dahulu sebelum dilakukan analisis 
menggunakan algoritma Hierarchical, K-Means, dan 
DBSCAN. Setelah itu, dilakukan perbandingan untuk 
hasil analisis dari masing-masing algoritma tersebut. 


| Studi Pustaka 


—5. 


telah disebutkan, penting dilakukan analisis guna 
mengetahui algoritma terbaik yang bisa diterapkan untuk 
analisis data penjualan melalui Facebook. Terdapat 
beberapa penelitian terdahulu yang telah melakukan 
perbandingan untuk algoritma K-Means dan DBSCAN. 
Hasil penelitian Sisca dkk (2016) menunjukkan bahwa 
metode K-Means lebih baik dari metode DBSCAN dalam 
mengelompokkan data rumah kost (7). Hal ini berbanding 
terbalik dengan penelitian terbaru yang dilakukan oleh 
Mustika dkk (2021) untuk pengelompokan status desa 
dan penelitian yang dilakukan oleh Rimelda dkk (2021) 
untuk pengelompokan kasus Covid-19 (8/19). Hasil dari 
kedua penelitian tersebut justru menunjukkan bahwa 
metode DBSCAN lebih baik dari metode K-Means. 
Ketiga penelitian terdahulu ini hanya melakukan 
perbandingan terhadap algoritma DBSCAN dan K- 
Means, oleh karena itu penelitian ini diharapkan dapat 
memberikan kontribusi keterbaruan dengan melakukan 
komparasi terhadap algoritma Hierarchical. 


Terakhir, dapat ditarik kesimpulan terkait algoritma mana 
yang terbaik untuk diterapkan dalam analisis data 
penjualan melalui live Facebook. 

Langkah-langkah yang dilakukan tersebut akan 
dijelaskan lebih lanjut pada subbab maupun bab terkait 
pada bagian berikutnya. Adapun gambar terkait 
metodologi di atas adalah sebagai berikut. 


Data Sekunder dari 
UCI Repository 


Filter Normalization 


Preprocessing Data 


Analisis Data 


Algoritma Algoritma Algoritma 
Hierarchical K-Means DBSCAN 


| 


Komparasi Hasil 


Setiap Algoritma 


Analisis Data untuk 


— Kesimpulan | 


Gambar 1. Bagan Alir Metodologi 


A. Studi Pustaka 

Sebelum melakukan penelitian, perlu dilakukan 
sebuah studi pustaka. Penelitian ini menggunakan teori 
dasar dan memanfaatkan teknik penggalian data yang 


disebut data mining. Data mining merupakan proses 
identifikasi pola pada data dengan tujuan mendapatkan 
informasi berguna dari data yang tersebar dan bersifat 
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besar. Data mining digunakan untuk menentukan tujuan 
hingga penilaian (10). Adapun teknik dalam melakukan 
penggalian data yaitu klasterisasi atau clustering. 
Clustering merupakan pengelompokan data serupa atau 
mirip dengan mengelompokkan data menjadi beberapa 
kelompok (cluster) (11). Clustering melalui proses partisi 
data menjadi himpunan-himpunan sesuai objek dataset. 


B. Data 

Data yang digunakan pada penelitian ini merupakan data 
sekunder. Menurut Edi Riadi (2016), data sekunder 
adalah jenis data yang didapatkan secara tidak langsung 
dari objek penelitian (13). Adapun data yang digunakan 
adalah dataset live sellers in Thailand atau data pengguna 
untuk melakukan kegiatan jual beli secara online yang 


Klasterisasi dinilai membantu untuk menganalisis dengan 
identifikasi objek, hal ini disebut segmentasi data. Setelah 
dilakukan pengelompokkan data dan mendapatkan hasil 
dari tiap setiap algoritma, dilakukan studi komparasi 
untuk membandingkan dua hingga lebih objek penelitian. 
Hal ini dilakukan untuk menemukan persamaan dan 
perbedaan dari objek-objek tersebut (12). 


diperoleh dari sumber data terbuka UCI Repository 
(14).Dalam data berjumlah 7050 tersebut, terdapat 12 
fitur atau parameter yang ada di dalamnya. Adapun 
penjelasan terkait parameter tersebut dapat dilihat pada 
Tabel 1. 


Tabel 1 Parameter Dataset 


Jenis postingan yang dibuat oleh seller, photo atau video 


h akun yang memberikan komentar 


h akun yang menyukai postingan 

h akun yang memberikan simbol /ove 
h akun yang memberikan simbol wow 
h akun yang memberikan simbol haha 


h akun yang memberikan simbol sad 


No Parameter Deskripsi 
1 status id Nomor urutan data 
2 status type 
3 status published Tanggal postingan dibuat 
4 num reactions Jumlah akun yang memberikan reaction 
5 num comments Jumla 
6 num shares Jumlah akun yang membagikan postingan 
7 num likes Jumla 
8  num loves Jumla 
9 num wows Jumla 
10  num hahas Jumla 
11  num sads Jumla 
12  num. angrys 


C. Preprocessing Data 

Preprocessing data merupakan salah satu tahap dari 
serangkaian data mining yang meliputi persiapan dan 
transformasi data menjadi bentuk yang sesuai dengan 
prosedur data mining. Preprocessing data bertujuan 
untuk memperkecil ukuran data, menemukan relasi antar 
data, menormalkan data, menghapus outlier, dan 
mengekstrak fitur untuk data. Preprocessing data 
mencakup beberapa teknik seperti pembersihan data, 
integrasi, transformasi, dan pengurangan (15). Adapun 
tahapan preprocessing data dalam proses clustering dapat 
dilihat pada gambar di bawah ini. Proses preprocessing 
data sangat penting untuk dilakukan guna mengubah 
sumber data menjadi format yang sesuai dan mudah 
untuk dilakukan proses pengklasteran sehingga proses 
clustering tersebut dapat lebih optimal (16). 
Perlakuan preprocessing data yang dilakukan dalam 
penelitian ini adalah filter dan normalization. Filter yang 
dimaksud di sini bukan untuk memilih value tertentu dari 
sebuah kolom, melainkan untuk memilih beberapa atribut 
data yang akan diproses. Adapun data yang digunakan 
adalah semua data yang tercantum dalam Tabel 1 selain 


Jumlah akun yang memberikan simbol angry 


status id, status type, dan status published. Data 
tersebut tidak dapat digunakan dalam proses clustering 
karena termasuk ke dalam data kategorikal. Preprocessing 
data yang dilakukan selanjutnya adalah normalization. 
Normalisasi data diperlukan ketika berurusan dengan 
atribut pada skala yang berbeda. Jika tidak dilakukan 
normalisasi, maka dapat menyebabkan dilusi efektivitas 
atribut penting yang sama pentingnya (pada skala yang 
lebih rendah) karena atribut lain memiliki nilai pada skala 
yang lebih besar. Dengan kata lain, ketika ada banyak 
atribut dengan skala yang berbeda, ini dapat 
menyebabkan model data yang buruk ketika proses data 
mining. Jadi, diperlukan normalisasi data untuk semua 
atribut pada skala yang sama. Normalisasi adalah teknik 
penskalaan atau teknik pemetaan atau tahap pra 
pemrosesan, di mana dapat ditemukannya rentang baru 
dari rentang yang sudah ada (17). 

Adapun rumus untuk masing-masing perlakuan pada 
preprocessing data yaitu Standardization, Normalization, 
dan Min-max scaler adalah sebagai berikut (18J: 


Standardization: 


(1) 


with mean: 
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1 
Uu — ni xi) 2) 
And standard deviation: 
1 
g — man er — 3 3) 
Normalization 
1:2 — Jlell, 5 Xp4 bal 4 
12:72 5 Ilxll, — Jam, ox? 6) 
Max: z — (el 5 max lag (6) 
Min max sealer 
Xscalea & 2 min 7) 


Xmax — Xmin 


D. Algoritma 

Algoritma merupakan sebuah sistem kerja komputer 
yang mencakup software, hardware, dan brainware. 
Tanpa adanya salah satu dari ketiga komponen tersebut, 
komputer tidak akan dapat memberikan manfaat apapun. 
Kita hanya akan terpaku pada software yang kita gunakan. 
Sedangkan software terbangun atas susunan program dan 
syatax (cara penulisan/pembuatan program). Dalam 
menyusun program atau syntax itulah, diperlukan 
langkah-langkah yang sistematis dan logis agar dapat 
memecahkan suatu masalah atau tujuan tertentu dalam 
proses rancang bangun sebuah software. Algoritma 
mempunyai peran yang sangat penting dalam penyusunan 
program atau syntax tersebut. Pengertian dari algoritma 


1. Hierarchical 


Hierarchical merupakan salah satu algoritma dalam metode 
clustering yang bisa digunakan untuk mengelompokkan 
dokumen (document clustering). Dengan algoritma ini, bisa 
diperoleh sebuah kumpulan partisi yang berurutan, 
dimulai dari beberapa duster yang berada di tingkatan 
paling bawah hingga single cluster yang berada di tingkatan 
paling atas. Custer-cluster yang berada di tingkatan paling 
bawah adalah kumpulan wuster yang mempunyai unsur- 
unsur individu, sedangkan single cluster yang berada di 
tingkatan paling atas adalah sebuah duster yang di 
dalamnya mengandung unsur yang dimiliki oleh 
keseluruhan cluster (20J. 

Beberapa metode dalam algoritma Hierarchical yang sering 
digunakan adalah Single Linkage, Complete Linkage, Average 


itu sendiri adalah sebuah susunan logis dan sistematis 
yang digunakan untuk menyelesaikan suatu masalah 
tertentu atau untuk mencapai sebuah maksud dan tujuan. 
Dalam dunia komputer, algoritma mempunyai peran yang 
sangat penting pada rancang bangun sebuah software. 
Dalam kehidupan sehari-hari, tidak dapat kita pungkiri 
bahwa algoritma telah masuk dalam semua lini kehidupan 
kita (19J. 

Beberapa algoritma yang dilakukan dalam penelitian 
ini adalah Hierarchical, K-Means dan DBSCAN. Adapun 
penjelasan dari masing-masing algoritma tersebut adalah 
sebagai berikut. 


Linkage, Average Group Linkage, dan masih banyak lagi. 
Layaknya partition-based clustering, jarak bisa dipakai untuk 
menghitung tingkat kemiripan yang dimiliki oleh antar 
data (21). 

Algoritma Hierarchical bisa direpresentasikan dalam 
bentuk visual melalui dendogram. Dendogram disusun 
dengan membuat siwilarity matrix yang dapat 
mengelompokkan tingkatan dari kemiripan antar data. 
Tingkat kemiripan ini dapat dihitung menggunakan 
beberapa cara, seperti Hucidean Distance Space dan 
Manhattan Distance. Adapun formula dari kedua cara 
tersebut adalah sebagai berikut. 


Manhattan Distance 


Dman X,Y) — 4 by — Yi 
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Euclidean Distance 


2 
Dope) - Isa, lai - xl () 


2. K-Means 


Algoritma ini paling banyak digunakan dan sering 
dijumpai pada kasus klasterisasi. K-Means membagi titik M 
ke dalam dimensi N menjadi K, untuk meminimalkan 
kuadrat pada klaster (22). K-Means termasuk ke dalam 
unsupervised learning, yaitu pengelompokkan pola-pola data 
tanpa terpengaruh jumlah c/uster. Dataset yang digunakan 
memiliki fungsi X - (X4, ... Xn 423). Kemudian K- 
Means meminimalkan fungsi objek »? —1»g — 


1z5ellos — aril” A0) 


Berikut merupakan tahapan untuk clustering dengan K- 
Means. 


1) Menentukan nilai £ (jumlah klaster) 

2) Menentukan £& center dari dataset 

3) Menggunakan rumus jarak Euclidean dari tiap 
centroid, yang mana x dan y sebagai koordinat objek, 
s dan # sebagai koordinat centroid : 


De - Jr — Sala “nj (d1) 


4) Menentukan jarak terdekat berdasarkan letak centroid 
5) Menentukan rata-rata nilai centroid yang baru dengan 


1 ANj 
Krj (12) 


N, 3k-0 
di mana rata-rata dari cluster 7 untuk vatiabel j, NN, 
jumlah data, 7 dan & menjadi indeks klaster, j7 


rumus: Vij 5 


merupakan indeks variabel, Xxj nilai data & untuk 


variabel j. 

6) Kelima tahapan tersebut dilakukan hingga klaster 
tidak berubah. 

3. DBSCAN 


3. Hasil dan Pembahasan 


Proses analisis komparasi algoritma dilakukan dengan 
menggunakan software  KNIME dan bahasa 
pemrograman Python. KNIME (Konstanz Information 
Miner) merupakan sebuah platform yang dapat digunakan 
untuk mengintegrasikan, memproses, dan menganalisis 
data dari berbagai sumber. KNIME menawarkan 
berbagai alat visual yang memungkinkan pengguna 
membangun alur kerja analisis data langsung tanpa harus 
menuliskan baris kode. Python adalah bahasa 
pemrograman interpreted tingkat tinggi yang memiliki 
tujuan seperti bahasa pemrograman tingkat tinggi pada 
umumnya. Filosofi bahasa pemrograman Python 
desainnya menekankan keterbacaan kode dengan 
penggunaan indentasi yang signifikan. Konstruksi bahasa 
serta pendekatan berorientasi objek dari Python itu 
sendiri memiliki tujuan untuk membantu programmer 
menulis kode yang jelas dan logis untuk proyek berskala 


DBSCAN (Density-Based Spatial Clustering of Application with 
Noise) merupakan salah satu algoritma yang menjadi 
pelopor dalam perkembangan metode dlustering dengan 
berdasarkan pada kepadatan atau yang lumrah dikenal 
dengan istilah density based clustering dalam dunia data mining 
(24). 

Metode yang digunakan dalam algoritma DBSCAN 
adalah dengan cara membatasi wilayah tertentu 
berdasarkan kepadatan yang saling terhubung satu sama 
lain (density-connected). Setiap objek dari sebuah cakupan 
wilayah (cluster) harus terdapat setidaknya sejumlah 
minimum data. Semua objek yang bukan merupakan 
bagian dari cluster tertentu dianggap sebagai sebuah noise. 
Adapun langkah-langkah perhitungan dalam algoritma 
DBSCAN ini adalah sebagai berikut. 


Inisialisasi parameter mintps, eps 
Menentukan titik awal atau p dengan cara acak 
Mengulangi langkah 1-3 untuk semua titik 
Menghitung eps atau semua jarak antar titik yang 
kepadatannya dapat dijangkau (density reachable) 
terhadap p menggunakan rumus: 

Etsy) 5 Jin Ki V) 

(13) 


Do TP 


e. Jika titik yang memenuhi eps ternyata lebih besar dari 
mintps, maka titik p dijadikan sebagai core point dari 
cluster yang telah terbentuk 

f. Namun jika p ternyata adalah border point dan tidak 
ada titik yang density reachable terhadap p, maka 
proses dilanjutkan dengan cara melakukan 
perhitungan terhadap titik yang lain. 


kecil dan besar (25). Proses analisis dilakukan dengan 
memodelkan setiap metode clustering untuk memberikan 
gambaran alur yang nantinya akan dieksekusi 
menggunakan bahasa pemrograman Python. 

Gambar 2 merupakan tampilan dari workflow pada 
KNIME yang diawali dengan membaca data 
menggunakan node CSV Reader. Sebelum mulai 
diproses, perlu dilakukan tahap preprocessing data 
terlebih dahulu menggunakan node Column Filter untuk 
memfilter parameter yang akan digunakan dan 
dilanjutkan dengan normalisasi menggunakan node 
Normalizer. Untuk algoritma DBSCAN sendiri, ada satu 
node tambahan yang diperlukan sebelum memproses 
data, yaitu Numeric Distances untuk menentukan jarak 
Euclidean dari data numerik yang ada. Selanjutnya, 
dilakukan analisis menggunakan tiga node berbeda sesuai 
dengan algoritma terkait. Dari masing-masing algoritma 
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tersebut, diperlukan validasi node 
Silhouette Coefficient. 

Penjelasan dari masing-masing node yang digunakan pada 
workflow KNIME pada penelitian ini disajikan pada 


Tabel 2. 


menggunakan 


Setelah dilakukan visualisasi menggunakan KNIME, 
dilakukan analisis pada Python untuk mengetahui 
silhouette score yang dihasilkan dari setiap perlakuan yang 
diberikan pada masing-masing algoritma. Adapun hasil 
analisis yang dimaksud tertuang pada beberapa tabel 3. 


Hierarchical Silhouette 
Clustering Coefficient 
— 
o Ko) 
perform data 
clustering validation 
Silhouette 
CSV Reader Column Filter Normalizer k-Means Coefficient 
bae — 
e o ts) o 
load data filter data perform data validation 
clustering 
Silhouette 
lg Distances DBSCAN Coefficient 
euclidean her data 
distance clustering validation 
Gambar 2. Model KNIME 
Tabel 3. Silhouette Score Hierarchical 
Cluster 
Preprocessing 
2 3 4 5 6 7 8 9 10 
Tanpa Scaler Aa 
P 0.8844 07729 0.7924 0.7937 0.7515 07512  0.6596  0.6697 1 
Standard Scal Tn 
Gian 07961 0.7486 0.7533  0.7563  0.7571  0.7583  0.6588  0.6623 7 
Normalization Naa 
0.7749 0.6811  0.7052 0.6537 0.6476 0.6516  0.6618  0.4689 6 
. 0.583 
Ns Sa 0.8042  0.8081  0.7495  0.6184 05732  0.5754  0.5807 05815 2 


Tabel 3 menunjukkan silhouette score untuk metode 
Hierarchical dari beberapa cluster, mulai dari cluster 2 
hingga cluster 10. Adapun perolehan silhouette score 
tertinggi dari masing-masing perlakuan pre-processing 
data pada metode Hierarchical berturut-turut adalah 
0.8844 untuk preprocessing tanpa scaler, 0.7961 untuk 


Standard scaler, 0.7749 untuk Normalization, dan 0.8042 
untuk Min Max Scaler. Semua perolehan skor tertinggi 
terjadi pada cluster 2. Dari keseluruhan skor pada masing- 
masing preprocessing tersebut, skor tertinggi yang 
diperoleh pada metode Hierarchical adalah 0.8844 pada 
perlakuan tanpa scaler. 


Tabel 4 Silhouette Score K-Means 


Cluster 
Preprocessing 
2 3 4 5 6 7 8 9 10 
0.681 
Tanpa Scaler 0.8121 0.8176 0.7852  0.7600 0.7614 07614  0.6575 9 
0.6M1 
Standard Scaler 0.8158 ' 0.7500 0.7577. 0.7605 07151 0.7118 07137  0.7108 9 
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0.548 


Metnsibaton 0.7998  0.8156 07479 07095 06220 06202 05595 05700 "9 
Tini 0.8125 08170 0.6443 06962 0.6196 06329 06359 0.6365 3 


Tabel 2 Node pada KNIME 


Node Nama Fungsi 
(3 CSV Reader Untuk membaca file CSV 
@ 
P Yap Column Untuk memfilter kolom 
s Filter tertentu dari inputan data 
Pa Na Untuk menormalkan semua 
Te nilai kolom numerik 
. 8 Numetric Untuk menentukan jarak 
s Distances Euclidean pada kolom numerik 
NG lidi Untuk mengelompokkan data 
. inputan berdasarkan hirarki 
Clustering 
@ yang terbentuk 
Untuk menentukan pusat 
"X3 k-Mcan klaster berdasarkan jumlah 
Kini klaster yang telah ditentukan 
. sebelumnya 
Untuk menemukan klaster 
DBSCAN dalam database spasial besar 
@ dengan noise 
Silbouctte Untuk menghitung koefisien 
Kh silhouette berdasarkan jumlah 
Coefficient 


klaster yang telah ditemukan 


Tabel 4 menunjukkan silhouette score untuk metode K- 
Means dari beberapa cluster, mulai dari cluster 2 hingga 
cluster 10. Adapun perolehan silhouette score tertinggi 
dari masing-masing perlakuan preprocessing data pada 
metode K-Means berturut-turut adalah 0.8722 untuk 
preprocessing tanpa scaler, 0.8158 untuk Standard scaler, 
0.8156 untuk Normalization, dan 0.8170 untuk Min Max 
Scaler. Perolehan skor tertinggi terjadi pada cluster 2 
untuk perlakuan tanpa scaler dan standard scaler, 
sedangkan perolehan skor tertinggi pada Normalization 
dan Min Max Scaler terjadi pada cluster 3. Dari 
keseluruhan skor pada masing-masing preprocessing 
tersebut, skor tertinggi yang diperoleh pada metode K- 
Means adalah 0.8844 pada perlakuan tanpa scaler. 
Terakhir, sebelum dilakukan proses clustering 


menggunakan metode DBSCAN, dibutuhkan dua 
parameter input, yaitu Epsilon dan Minimum Points. 
Epsilon adalah jarak maksimal antara dua data dalam satu 
cluster yang memungkinkan, sedangkan minimum points 
adalah banyaknya data minimal dalam jarak epsilon agar 
terbentuk sebuah cluster. Adapun metode jarak yang 
digunakan dalam DBSCAN pada penelitian ini adalah 
jarak Euclidean. Angka-angka Epsilon yang digunakan 
pada penelitian ini dimulai dari 1.00 hingga 4.00 dengan 
menggunakan kelipatan 0.25. Sedangkan empat angka 
Minimum Points yang digunakan adalah 10, 15, 20, dan 
25. Penggunaan angka-angka ini adalah dikarenakan dara 
yang dimiliki memiliki lebih dari 2 dimensi, sehingga 
MinPts — 2#dim, di mana redup - dimensi dari kumpulan 
data yang digunakan (26). 
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Tabel 6 Silhouette Score DBSCAN dengan Standard Scaler 


Minimum Points 


Epsilon 10 15 20 25 
Output Silhouette Output Silhouette Output  Silhouette Output Silhouerte 
Cluster Score Cluster Score Cluster Score Cluster Score 
1.00 41 -0.2502 33 -0.2638 29 -0.2760 28 -0.2834 
1.25 41 -0.2502 33 -0.2638 29 -0.2760 28 -0.2834 
1.50 2 -0.4002 5 -0.4436 3 -0.1991 1 0 
1.75 7 -0.3685 5 -0.4513 3 -0.1427 4 -0.1701 
2.00 3 -0.0493 2 -0.0641 2 -0.1146 2 -0.1219 
2.25 4 -0.2721 2 -0.0606 2 -0.1063 2 -0.1200 
2.50 6 -0.0813 2 -0.0427 2 -0.0554 2 -0.3507 
2.75 4 -0.1305 2 -0.0155 2 -0.0474 1 0 
3.00 4 0.0255 2 0.0077 4 -0.1889 2 -0.0361 
3.25 3 0.0723 2 0.0197 2 0.0010 2 -0.0304 
3.50 5 0.0614 3 0.0351 1 0 3 -0.0093 
3.75 5 -0.3142 3 0.0367 1 0 1 0 
4.00 5 -0.3709 3 | 000888 | 1 0 1 0 


Tabel 5 menunjukkan hasil silhouette score pada metode 
DBSCAN dengan perlakuan preprocessing Standard 
Scaler. Dapat diketahui bahwa perolehan silhouette score 
tertinggi pada nilai minimum points 10 adalah 0.6990, 
pada nilai minimum points 15 adalah 0.5156, pada nilai 
minimum points 20 adalah 0.5154, dan pada nilai 
minimum points 25 adalah 0.5145. Dari beberapa score 
tersebut, 0.6990 merupakan silhouette score tertinggi dari 
minimum points 10 dan epsilon 2.00 dengan jumlah 
cluster yang muncul sebanyak 2. Perlakuan preprocessing 


selanjutnya yang dilakukan pada metode DBSCAN 
adalah Normalizer dan Min Max Scaler. Dengan 
menggunakan beberapa epsilon dan minimum points 
yang sama dengan dua perlakuan sebelumnya, diketahui 
bahwa semua silhouette score yang muncul adalah 0. 
Terakhir, dari beberapa perlakuan preprocessing untuk 
metode DBSCAN, dilakukan komparasi untuk 
menentukan perolehan silhouette score tertinggi dari 
semua perlakuan yang telah diberikan. Adapun komparasi 
yang dimaksud pada gambar tabel 7. 


Tabel 7 Silhouette Score DBSCAN 


No Perlakuan 
1 Tanpa Scaler 
2 Standard Scaler 
3 Normalizer 
4 Min Max Scaler 


Tabel 7 menunjukkan bahwa hasil metode DBSCAN 
dengan Standard Scaler dan dengan menggunakan 2 
cluster pada studi kasus ini memiliki nilai Silhouette Score 
paling tinggi. Jenis scaler Normalizer dan Min Max Scaler 
tidak memiliki nilai Silhouette karena scaler tersebut 
hanya menghasilkan 1 cluster, sedangkan syarat validasi 


Cluster  Silhouette Score 
3 0.0887 
2 0.6989 
1 0 
1 0 


Silhouette Score adalah setidaknya memiliki 2 cluster. 
Selanjutnya, dilakukan kompresi dari semua metode yang 
telah dilakukan, yaitu Hierarchical, K-Means, dan 
DBSCAN berdasarkan silhouette score pada masing- 
masing metode tersebut. Adapun hasil komparasi 
tersebut pada tabel 8. 


Tabel 8 Komparasi Hasil Silhouette Score 


Metode 


Perlakuan 


Silhouette 


Cluster 
Score 
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Hierarchical — Tanpa Scaler 2 0.8843 
K-Means Tanpa Scaler 2 0.8721 
DBSCAN Dasa 2 0.6989 

Scaler 


Tabel 8 menunjukkan bahwa metode K-Means dan 
Hierarchical tanpa scaler dan dengan menggunakan 2 
cluster memiliki nilai Silhonette Score cukup tinggi dan 
memiliki selisih yang tidak terlalu jauh. Selain berdasarkan 


silbouette score, perlu juga dilakukan komparasi untuk 
masing-masing metode dengan menggunakan indikator 
performa algoritma. Adapun hasil komparasi yang 
dimaksud pada tabel 9. 


Tabel 9 Performa Algoritma 


Hierarchical  K-Means 


Rata-rata waktu 
eksekusi (detik) 


1.6069 
Performa algoritma pada Tabel 9 menunjukkan bahwa 
metode K-Means memiliki waktu eksekusi yang paling 
cepat. Metode DBSCAN memiliki waktu dua kali lipat 


4. Kesimpulan 


Hasil penelitian menunjukkan bahwa algoritma 
Hierarchical dengan perlakuan tanpa scaler dan jumlah 
cluster yang muncul sebanyak 2 memperoleh silhouette 
score tertinggi, yaitu 0.884. Perolehan silhouette score 
tertinggi ini disusul oleh angka 0.872 pada algoritma K- 
Means dengan perlakuan tanpa scaler dan jumlah cluster 
yang muncul sebanyak 2. Di posisi terakhir, ada algoritma 
DBSCAN yang memperoleh silhouette score 0.699 
dengan jumlah cluster sebanyak 2 tetapi dengan jenis 
perlakuan yang berbeda dengan dua algoritma yang lain, 
yaitu Standard Scaler. Selanjutnya, hasil komparasi yang 
dilakukan dengan menggunakan indikator performa 
menunjukkan bahwa K-Means merupakan algoritma 
terbaik dengan rata-rata waktu eksekusi selama 0.402 
detik. Di posisi kedua, ada DBSCAN yang memiliki rata- 
rata waktu eksekusi 0.835 detik, sekitar dua kali lipat dari 
performa K-Means. Angka ini kemudian disusul oleh 
performa dari algoritma Hierarchical yang rata-rata waktu 
eksekusinya adalah selama 1.607 detik. Berdasarkan dua 
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